有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java saveAsTextFile性能改进

我使用了以下格式的数据源,最高可达1500000

1
2
3
4
5
..
1500000

我已经使用了下面的代码片段

JavaRDD<String> dataCollection=ctx.textFile("hdfs://yarncluster/Input/datasource");

JavaPairRDD<String,String> rdd=dataCollection.cartesian(dataCollection);

rdd.saveAsTextFile("hdfs://yarncluster/Ouput");

在集群中保存数据需要更多的时间。 有没有其他方法可以提高性能


共 (1) 个答案

  1. # 1 楼答案

    您可以通过使用大量分区调用重新分区来提高并行度